Ile czasu zajęłoby małpie napisanie „Hamleta”?

Tak zwanetwierdzenie o nieskończonej małpie głosi, że małpa z maszyną do pisania, która losowo naciska klawisze, ostatecznie napisałaby każde dzieło literackie: Hamleta , Don Kichota , a nawet bestseller własnego autorstwa. Chociaż nie jest to zbyt praktyczne — jest co najmniej skomplikowane, aby nieśmiertelna małpa chciała pisać na klawiaturze wiecznie — to twierdzenie pozwala nam zbadać bardzo interesujące koncepcje, takie jak losowość, zachowanie w nieskończoności i obliczenia oparte na generowaniu liczb pseudolosowych.
Jest to bezpośrednia konsekwencja drugiego lematu Borela–Cantellego . Lemat ten stwierdza, że jeśli każda próba osiągnięcia określonego wyniku jest niezależna od wszystkich innych i ma prawdopodobieństwo sukcesu większe od zera, to przy wystarczającej liczbie prób wynik ten wystąpi nieskończenie wiele razy. W przypadku twierdzenia o nieskończonej liczbie małp, jeśli małpa naciska klawisze losowo w nieskończoność, prawdopodobieństwo, że wpisze dany tekst w jednej próbie, jest bardzo niskie, ale niezerowe. Ponieważ próby są powtarzane w nieskończoność i są niezależne od siebie, zgodnie z lematem małpa ostatecznie wpisze pożądany tekst nieskończenie wiele razy .
Aby twierdzenie zostało spełnione, opiera się ono na kilku założeniach. Pierwsze z nich to to, że małpa musi pisać losowo. Potocznie rozumiemy zjawisko losowe jako takie, którego wyniku nie można określić z całą pewnością przed jego wystąpieniem, nawet jeśli znane są warunki początkowe. Przykłady losowości obejmują rzut kostką lub losowanie loterii bożonarodzeniowej. W przypadku małpy zakłada się, że przy każdym naciśnięciu klawisza wszystkie litery alfabetu mają takie samo prawdopodobieństwo wylosowania, niezależnie od tekstu już napisanego.
Ten warunek pozwala nam obliczyć prawdopodobieństwo, że małpa napisze dowolną sekwencję. Na przykład prawdopodobieństwo napisania „hello” przez losowe naciśnięcie czterech klawiszy na klawiaturze hiszpańskiej (biorąc pod uwagę tylko litery i spację) wynosi (1/27)^4, czyli około 0,0000019. Ta mała wartość, dla tak krótkiej sekwencji, pokazuje już, jak skomplikowana jest ta kwestia.
Oto drugie założenie twierdzenia: mamy nieskończoną ilość dostępnego czasu, a zatem nieskończoną liczbę prób. Po n próbach, które dla uproszczenia przyjęto jako izolowane, prawdopodobieństwo, że sekwencja „hello” się nie pojawi, wynosi (1 - 0,0000019)^ n . Chociaż (1 - 0,0000019) jest bardzo bliskie 1, pomnożenie go przez siebie n razy, jeśli n jest wystarczająco duże, daje wartość bliską zeru. Dlatego małpa napisze „hello” z tak dużym prawdopodobieństwem, jak chcemy.
To samo dotyczy każdej innej sekwencji — nawet tej, która obejmuje wszystkie słowa Hamleta w kolejności — i na której opiera się twierdzenie o nieskończonej liczbie małp. Czy możemy teraz z grubsza oszacować, ile czasu zajęłoby wyprodukowanie klasycznego dzieła Szekspira, z dużym prawdopodobieństwem? W niedawnym artykule obliczyli, że z niemal całkowitą pewnością cała obecna populacja małp nie byłaby w stanie napisać tekstu składającego się z więcej niż kilku słów przed śmiercią cieplną wszechświata.
Inny ciekawy eksperyment związany z tym twierdzeniem pozwala użytkownikowi wprowadzić dowolną sekwencję i symuluje losowe generowanie tekstu, aż do znalezienia danej sekwencji. Aby wygenerować tekst, ta strona używa tak zwanych generatorów liczb pseudolosowych . Będąc opartymi na regułach, obliczenia wykonywane przez te programy są całkowicie deterministyczne: jeśli znane są wszystkie warunki początkowe, wygenerowaną liczbę można przewidzieć. Innymi słowy, liczby pseudolosowe nie są losowe. Jednak gdy warunki początkowe generatora są nieznane, wygenerowane wartości są nieodróżnialne od liczb prawdziwie losowych. Istnieją różne techniki w tym celu, takie jak generatory oparte na arytmetyce modularnej lub te oparte na szyfrach, między innymi.
Na koniec, w duchu dużych modeli językowych , czy mogłyby one być użyte jako substytuty małp w naszym eksperymencie? Czy ChatGPT lub DeepSeek mogłyby spontanicznie napisać Don Kichota, gdyby poproszono je o pisanie przez nieskończoną ilość czasu? Powyższe rozumowanie nie jest słuszne, ponieważ te modele generują tekst na podstawie prawdopodobieństwa pojawienia się słów w danym kontekście; nie są produktem losowego procesu. A ponieważ Don Kichot jest jednym z tekstów, na których zostały wytrenowane, mogłoby się wydawać, że prawdopodobieństwo odtworzenia przez nie całego dzieła byłoby wyższe niż w poprzednim przypadku.
Jednak kilka czynników sprawia, że jest to niezwykle mało prawdopodobne . Po pierwsze, te modele nie są szkolone, aby wiernie odtwarzać hiszpańskie teksty Złotego Wieku, ale raczej współczesne, co utrudnia im dokładne podążanie za stylem Cervantesa. Ponadto, te programy są zaprojektowane tak, aby nie kopiować dosłownie dużych fragmentów tekstów, których się uczyły, co jeszcze bardziej zmniejsza szanse na odtworzenie całych dzieł. To, w połączeniu z innymi ograniczeniami programu, oznacza, że chociaż model może być w stanie zbliżyć się do niektórych części tekstu bardziej niż małpy, prawdopodobieństwo, że odtworzy go w całości, jest niewielkie.
Pablo García Arce jest pracownikiem naukowym na stanowisku doktoranta w Hiszpańskiej Radzie ds. Badań Naukowych (CSIC) w Instytucie Nauk Matematycznych (ICMAT).
Coffee and Theorems to sekcja poświęcona matematyce i środowisku, w którym jest tworzona, koordynowana przez Institute of Mathematical Sciences (ICMAT). W tej sekcji badacze i członkowie centrum opisują najnowsze osiągnięcia w tej dziedzinie, dzielą wspólne obszary matematyki i innych społecznych i kulturowych wyrazów oraz wspominają tych, którzy kształtowali jej rozwój i potrafili przekształcać kawę w twierdzenia. Nazwa przywołuje definicję węgierskiego matematyka Alfreda Rényi: „Matematyk to maszyna, która przekształca kawę w twierdzenia”.
Redagowane, tłumaczone i koordynowane przez Ágata Timón García-Longoria . Jest koordynatorem Mathematical Culture Unit w Institute of Mathematical Sciences (ICMAT).
EL PAÍS